当前位置:  开发笔记 > 编程语言 > 正文

为什么`as`方法删除了矢量名称,有没有办法解决它?

如何解决《为什么`as`方法删除了矢量名称,有没有办法解决它?》经验,为你挑选了1个好方法。

基本上,我试图在我的分析中保留一个名为dates特殊Dates 的向量,比如新年2016和2015年7月4日.我希望能够从名称而不是索引中提取稳健性,例如,dates["nyd"]获得新年,并dates["ind"]获得7月4日.

我觉得这很简单:

dates <- as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))

as.Date剥夺了名字:

dates
# [1] "2015-07-04" "2016-01-01"

它不像Date矢量不能被命名(这将是奇怪的,因为它们基本上是特定解释integer的):

setNames(dates, c("ind", "nyd"))
#          ind          nyd 
# "2015-07-04" "2016-01-01" 

不幸的是,没有办法Date直接声明一个向量(据我所知?),尤其是在不知道日期的基础整数值的情况下.

探索这一点,似乎这是as*函数类的标准实践:

as.integer(c(a = "123", b = "436"))
# [1] 123 436

as(c(a = 1, b = 2), "character")
# [1] "1" "2"

有这样的原因吗?在?as我看过的任何其他帮助页面中都没有提到名称丢失.

更一般地说,有没有办法(使用除了之外的东西as*)来确保对象的名称不会在转换中丢失?

当然,一种方法是编写自定义函数,as.Date.named或者创建一个as.named带有相关方法的自定义类,但是如果没有这样的东西已经到位,那将会让我感到惊讶,因为看起来这应该是一个非常常见的操作.

如果重要,我在3.2.2.



1> plannapus..:

事实上,不同的as.Date方法存在差异,这就是为什么(或者说"如何"):

首先,你的例子:

> as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))
[1] "2015-07-04" "2016-01-01"

这里我们使用方法as.Date.character:

> as.Date.character
function (x, format = "", ...) 
{
    charToDate <- function(x) {
        xx <- x[1L]
        if (is.na(xx)) {
            j <- 1L
            while (is.na(xx) && (j <- j + 1L) <= length(x)) xx <- x[j]
            if (is.na(xx)) 
                f <- "%Y-%m-%d"
        }
        if (is.na(xx) || !is.na(strptime(xx, f <- "%Y-%m-%d", 
            tz = "GMT")) || !is.na(strptime(xx, f <- "%Y/%m/%d", 
            tz = "GMT"))) 
            return(strptime(x, f))
        stop("character string is not in a standard unambiguous format")
    }
    res <- if (missing(format)) 
        charToDate(x)
    else strptime(x, format, tz = "GMT")
    as.Date(res)
}


无论是否给出格式,您的向量都会传递给strptime它,将其转换为类POSIXlt,然后as.Date再次传递给它,但这次使用的方法as.Date.POSIXlt是:

> as.Date.POSIXlt
function (x, ...) 
.Internal(POSIXlt2Date(x))


意味着最终用于转换为类Date的函数是被调用的C函数POSIXlt2Date(快速查看文件names.c显示该函数do_POSIXlt2D来自文件datetime.c).供参考,这里是:

SEXP attribute_hidden do_POSIXlt2D(SEXP call, SEXP op, SEXP args, SEXP env)
{
    SEXP x, ans, klass;
    R_xlen_t n = 0, nlen[9];
    stm tm;

    checkArity(op, args);
    PROTECT(x = duplicate(CAR(args)));
    if(!isVectorList(x) || LENGTH(x) < 9)
    error(_("invalid '%s' argument"), "x");

    for(int i = 3; i < 6; i++)
    if((nlen[i] = XLENGTH(VECTOR_ELT(x, i))) > n) n = nlen[i];
    if((nlen[8] = XLENGTH(VECTOR_ELT(x, 8))) > n) n = nlen[8];
    if(n > 0) {
    for(int i = 3; i < 6; i++)
        if(nlen[i] == 0)
        error(_("zero-length component in non-empty \"POSIXlt\" structure"));
    if(nlen[8] == 0)
        error(_("zero-length component in non-empty \"POSIXlt\" structure"));
    }
    /* coerce relevant fields to integer */
    for(int i = 3; i < 6; i++)
    SET_VECTOR_ELT(x, i, coerceVector(VECTOR_ELT(x, i), INTSXP));

    PROTECT(ans = allocVector(REALSXP, n));
    for(R_xlen_t i = 0; i < n; i++) {
    tm.tm_sec = tm.tm_min = tm.tm_hour = 0;
    tm.tm_mday  = INTEGER(VECTOR_ELT(x, 3))[i%nlen[3]];
    tm.tm_mon   = INTEGER(VECTOR_ELT(x, 4))[i%nlen[4]];
    tm.tm_year  = INTEGER(VECTOR_ELT(x, 5))[i%nlen[5]];
    /* mktime ignores tm.tm_wday and tm.tm_yday */
    tm.tm_isdst = 0;
    if(tm.tm_mday == NA_INTEGER || tm.tm_mon == NA_INTEGER ||
       tm.tm_year == NA_INTEGER || validate_tm(&tm) < 0)
        REAL(ans)[i] = NA_REAL;
    else {
        /* -1 must be error as seconds were zeroed */
        double tmp = mktime00(&tm);
        REAL(ans)[i] = (tmp == -1) ? NA_REAL : tmp/86400;
    }
    }

    PROTECT(klass = mkString("Date"));
    classgets(ans, klass);
    UNPROTECT(3);
    return ans;
}

不幸的是,我对C的理解太有限了,不知道为什么属性在这里丢失了.我的猜测是它会在coerceVector操作期间或POSIXlt列表的每个元素被单独强制转换为整数时发生(如果这是1268-70行的情况).

但是让我们看看另as.Date一种方法,从主要犯罪者开始as.Date.POSIXct:

> as.Date.POSIXct
function (x, tz = "UTC", ...) 
{
    if (tz == "UTC") {
        z <- floor(unclass(x)/86400)
        attr(z, "tzone") <- NULL
        structure(z, class = "Date")
    }
    else as.Date(as.POSIXlt(x, tz = tz))
}


有了这个,如果没有给出时区,或者如果时区是"UTC",则该函数只是操纵POSIXct列表以提取可以解析为Date对象的数据,从而不会丢失属性,但是如果有任何其他时区是给定,它然后被转换为一个POSIXlt对象,因此进一步传递到相同的POSIXlt2Date内部,最终失去其属性!事实上:

> as.Date(c(a = as.POSIXct("2016-01-01")), tz="UTC")
           a 
"2015-12-31" 

> as.Date(c(a = as.POSIXct("2016-01-01")), tz="CET")
[1] "2016-01-01"

最后,正如@Roland所提到的,as.Date.numeric确实保留了属性:

> as.Date.numeric
function (x, origin, ...) 
{
    if (missing(origin)) 
        stop("'origin' must be supplied")
    as.Date(origin, ...) + x
}


origin通过转换为Date as.Date.character,然后添加数字向量,从而保持属性,因为:

> c(a=1) + 2
a 
3 

很自然地:

> c(a=16814) + as.Date("1970-01-01")
           a 
"2016-01-14"

在考虑到这种差异之前,我认为,保持属性的唯一解决方案是首先转换为POSIXct(但要注意时区问题)或数字,或者复制原始矢量的属性:

> before <- c(ind = "2015-07-04", nyd = "2016-01-01")
> after <- as.Date(before)
> names(after) <- names(before)
> after
         ind          nyd 
"2015-07-04" "2016-01-01" 


"POSIXlt"对象的"名称"在其"年"组件上设置(参见`names < - .POSIXlt`).当"POSIXlt"传递给"POSIXlt2Date"时,"year"组件的"names"属性没有明确的get/set.`coerceVector`似乎没有丢失"名称"(它的R等价`as.sth`明确地将"属性"设置为"NULL"),所以,我猜,"名字"只是被忽略了?此外,值得注意的是,`as.POSIXct.POSIXlt`确实获得"POSIXlt"对象的"年"组件的"名称",将其设置为其返回值,与`as.Date.POSIXlt相反`忽略它(在C和R代码中).
@MichaelChirico这可能只是一个疏忽.报告.
推荐阅读
吻过彩虹的脸_378
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有